优化组合结构是许多现实世界中的核心,例如生命科学中遇到的问题。例如,抗体设计中涉及的关键步骤之一是在蛋白质序列中找到氨基酸的排列,以改善其与病原体的结合。由于极大的搜索空间和非线性目标,很难对抗体进行组合优化。即使对于适度的抗体设计问题,蛋白质的序列长度为11,我们也面临着超过2.05 x 10^14结构的搜索。应用传统的增强学习算法,例如Q-学习算法来组合优化,导致性能差。我们提出了结构化Q学习(SQL),这是Q学习的扩展,该Q学习结合了结构性先验,以进行组合优化。使用分子对接模拟器,我们证明了SQL可以找到高结合能序列,并在八个具有挑战性的抗体设计任务上对基准的表现良好,包括设计SARS-COV的抗体。
translated by 谷歌翻译
几乎可以肯定(或使用概率)满足安全限制对于在现实生活中的增强学习(RL)的部署至关重要。例如,理想情况下,平面降落和起飞应以概率为单位发生。我们通过引入安全增强(SAUTE)马尔可夫决策过程(MDP)来解决该问题,在该过程中,通过将其扩大到州空间并重塑目标来消除安全限制。我们表明,Saute MDP满足了Bellman方程,并使我们更加接近解决安全的RL,几乎可以肯定地满足。我们认为,Saute MDP允许从不同的角度查看安全的RL问题,从而实现新功能。例如,我们的方法具有插件的性质,即任何RL算法都可以“炒”。此外,国家扩展允许跨安全限制进行政策概括。我们最终表明,当约束满意度非常重要时,SAUTE RL算法的表现可以胜过其最先进的对应物。
translated by 谷歌翻译
我们介绍了一种组合变分AutiCencoders(VAE)和深度度量学习的方法,以通过高维和结构化输入空间执行贝叶斯优化(BO)。通过从深度度量学习中调整思路,我们使用BlackBox功能的标签指导来构建VAE潜在空间,促进高斯工艺拟合并产生改善的BO性能。重要的是,对于BO问题设置,我们的方法在半监督的制度中运行,其中只有少数标记的数据点。我们在三个现实世界任务中运行实验,在惩罚的LOGP分子生成基准上实现最先进的结果,只使用先前方法所需的标记数据的3%。作为一种理论贡献,我们提出了vae bo遗憾的证据。
translated by 谷歌翻译
Length extrapolation is a desirable property that permits training a transformer language model on short sequences and retaining similar perplexities when the model is tested on substantially longer sequences. A relative positional embedding mechanism applied on the transformer self-attention matrix, ALiBi, demonstrates the length extrapolation property with the widest usage to date. In this paper, we show that ALiBi surprisingly does not utilize tokens further than the training sequence length, which can be explained by its implicit windowed attention effect that aligns the receptive field during training and testing stages. Inspired by ALiBi and the receptive filed alignment hypothesis, we propose another transformer positional embedding design named~\textbf{Sandwich} that uses longer than training sequence length information, and it is a greatly simplified formulation of the earliest proposed Sinusoidal positional embedding. Finally, we show that both ALiBi and Sandwich enable efficient inference thanks to their implicit windowed attention effect.
translated by 谷歌翻译
高斯过程可以说是空间统计中最重要的模型类别。他们编码有关建模功能的先前信息,可用于精确或近似贝叶斯推断。在许多应用中,尤其是在物理科学和工程中,以及在诸如地统计和神经科学等领域,对对称性的不变性是人们可以考虑的先前信息的最基本形式之一。高斯工艺与这种对称性的协方差的不变性导致了对此类空间平稳性概念的最自然概括。在这项工作中,我们开发了建设性和实用的技术,用于在在对称的背景下产生的一大批非欧基人空间上构建固定的高斯工艺。我们的技术使(i)以实用的方式计算(i)计算在此类空间上定义的先验和后高斯过程中的协方差内核和(ii)。这项工作分为两部分,每个部分涉及不同的技术考虑:第一部分研究紧凑的空间,而第二部分研究的非紧密空间具有某些结构。我们的贡献使我们研究的非欧亚人高斯流程模型与标准高斯流程软件包中可用的良好计算技术兼容,从而使从业者可以访问它们。
translated by 谷歌翻译
当客户具有不同的数据分布时,最新的联合学习方法的性能比其集中式同行差得多。对于神经网络,即使集中式SGD可以轻松找到同时执行所有客户端的解决方案,当前联合优化方法也无法收敛到可比的解决方案。我们表明,这种性能差异很大程度上可以归因于非概念性提出的优化挑战。具体来说,我们发现网络的早期层确实学习了有用的功能,但是最后一层无法使用它们。也就是说,适用于此非凸问题的联合优化扭曲了最终层的学习。利用这一观察结果,我们提出了一个火车征征训练(TCT)程序来避开此问题:首先,使用现成方法(例如FedAvg)学习功能;然后,优化从网络的经验神经切线核近似获得的共透性问题。当客户具有不同的数据时,我们的技术可在FMNIST上的准确性提高高达36%,而CIFAR10的准确性提高了 +37%。
translated by 谷歌翻译
尽管深层生成模型在图像处理,自然语言处理和强化学习方面已经成功,但由于其梯度估计过程的较高差异,涉及离散随机变量的培训仍然具有挑战性。蒙特卡洛是大多数降低方法中使用的常见解决方案。但是,这涉及耗时的重采样和多功能评估。我们提出了一个张开的直通(GST)估计器,以减少方差,而不会产生重新采样开销。该估计器的灵感来自直通牙龈 - 软胶的基本属性。我们确定这些特性,并通过消融研究表明它们是必不可少的。实验表明,与在两个离散的深层生成建模任务:MNIST-VAE和LISTOPS上相比,所提出的GST估计器与强基础相比具有更好的性能。
translated by 谷歌翻译
求职面试通常是高风险的社交场所,需要专业和行为技巧才能令人满意。专业的工作面试培训师会根据公共标准提供有关显示行为的教育反馈。对于提高工作面试所需的行为技能,这种反馈可能会有所帮助。产生此类反馈的技术方法可能是工作面试培训的嬉戏且低调的起点。因此,我们通过基于生成的对抗网络(GAN)的方法扩展了交互式虚拟工作面试培训系统,该方法首先检测到行为弱点并随后产生个性化的反馈。为了评估生成的反馈的有用性,我们使用求职培训系统的模型进行了一项混合方法试点研究。总体研究结果表明,基于GAN的产生的行为反馈很有帮助。此外,参与者评估反馈将改善他们的工作面试绩效。
translated by 谷歌翻译
In recent years, methods based on deep neural networks, and especially Neural Improvement (NI) models, have led to a revolution in the field of combinatorial optimization. Given an instance of a graph-based problem and a candidate solution, they are able to propose a modification rule that improves its quality. However, existing NI approaches only consider node features and node-wise positional encodings to extract the instance and solution information, respectively. Thus, they are not suitable for problems where the essential information is encoded in the edges. In this paper, we present a NI model to solve graph-based problems where the information is stored either in the nodes, in the edges, or in both of them. We incorporate the NI model as a building block of hill-climbing-based algorithms to efficiently guide the election of neighborhood operations considering the solution at that iteration. Conducted experiments show that the model is able to recommend neighborhood operations that are in the $99^{th}$ percentile for the Preference Ranking Problem. Moreover, when incorporated to hill-climbing algorithms, such as Iterated or Multi-start Local Search, the NI model systematically outperforms the conventional versions. Finally, we demonstrate the flexibility of the model by extending the application to two well-known problems: the Traveling Salesman Problem and the Graph Partitioning Problem.
translated by 谷歌翻译
大型语言模型可以编码有关世界的大量语义知识。这种知识对于旨在采取自然语言表达的高级,时间扩展的指示的机器人可能非常有用。但是,语言模型的一个重大弱点是,它们缺乏现实世界的经验,这使得很难利用它们在给定的体现中进行决策。例如,要求语言模型描述如何清洁溢出物可能会导致合理的叙述,但是它可能不适用于需要在特定环境中执行此任务的特定代理商(例如机器人)。我们建议通过预处理的技能来提供现实世界的基础,这些技能用于限制模型以提出可行且在上下文上适当的自然语言动作。机器人可以充当语​​言模型的“手和眼睛”,而语言模型可以提供有关任务的高级语义知识。我们展示了如何将低级技能与大语言模型结合在一起,以便语言模型提供有关执行复杂和时间扩展说明的过程的高级知识,而与这些技能相关的价值功能则提供了连接必要的基础了解特定的物理环境。我们在许多现实世界的机器人任务上评估了我们的方法,我们表明了对现实世界接地的需求,并且这种方法能够在移动操纵器上完成长远,抽象的自然语言指令。该项目的网站和视频可以在https://say-can.github.io/上找到。
translated by 谷歌翻译